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摘 要 : [目的 /意义 | 对 先秦 典籍 中 植物 进行 知识 挖掘， 构建 先秦 典籍 植物 知识 图 谱 ， 对 认 
我 国 古代 人 民 社 会 和 生活 状态 等 具有 重要 意义 。[ 方 法/ 过程] 对 先秦 典籍 中 植物 词 进行 详 尺 
标注 与 计量 分 析 。 基于 CRE 和 多 种 深度 学 习 模型 构建 十 汉语 植物 命名 实体 识别 模型 ， 比较 
分 析 各 模型 性 能 以 确定 最 优 模型 ， 设 计 了 面向 知识 图 谱 的 古 汉语 植物 知识 组 织 模式 。[ 结 果 
/结论 ] 基 于 领域 预 训练 语言 模型 SikuRoBERTa 构建 的 古 汉语 植物 命名 实体 识别 模型 性 能 最 
优 ， 调 和 平均 值 达 8$.44%， 为 基于 实体 的 植物 知识 挖掘 提供 了 有 效 方法 ;构建 了 先秦 典籍 
植物 知识 图 谱 ， 实 现 了 对 先秦 典籍 中 植物 实体 及 其 关联 知识 的 聚合 与 可 视 化 呈现 。 
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在 中 华文 明 发 展 的 历史 长 河 当中 ， 植 物 作 为 重要 的 文学 意象 和 生活 资料 作用 于 人 类 生 
活 的 方方面面 。“ 普 我 往 笑 ， 杨 柳 依依 ”中 ， 杨 柳 被 用 于 传递 作者 的 异 别 之 情 ， “ae 
im n er 直至 现代 ， 植 物 仍 被 寄托 诸多 意 
象 ， 如 仙人 掌 象 征 坚 强 ， 玫 瑰 则 象征 爱情 。 此 外 ， 部 分 植物 因 具 备 重要 医学 价值 ， 成 为 许 
多 中 草药 的 原材料 ， 如 金银花 具有 清热 解 毒 之 功效 ， nga e up, TY) 
蕴含 的 远 不 止 其 物质 属性 知识 ， 其 背后 还 蕴含 着 情感 属性 、 药 用 价值 等 关联 知识 。 
目前 ， 面 向 植物 的 研究 主要 有 以 下 几 个 方面 ， 一 是 从 环境 学 视角 研究 植物 对 大 气 、 土 
地 的 影响 四， 二 是 从 生物 学 视角 研究 某 类 植物 的 功能 、 性 状 中 ， 三 是 从 中 医药 学 视角 研究 植 
物 的 药 用 价值 中 ， 四 是 从 名 物 学 视角 研究 植物 的 命 名 规律 及 对 应 客体 的 渊源 流 变 中 

数字 人 文 的 兴起 为 古籍 研究 带 来 了 新 的 研究 范式 ， 也 为 古籍 中 植物 知识 的 挖掘 和 组 织 
提供 了 新 的 方法 和 视角 。 我 国 海量 的 数字 化 典籍 资源 和 近年 来 古 汉语 信息 处 理 技术 的 发 展 
为 挖掘 古籍 隐藏 的 知识 提供 了 有 力 的 数据 和 技术 支撑 。 在 众多 古 汉 语 信息 处 理 技术 中 ， 命 
名 实体 识别 是 挖掘 词语 级 知识 单元 的 基础 步 又， 基于 语义 网 技术 发 展 而 来 的 知识 图 谱 则 是 
二 组 织 和 存储 海量 知识 单元 并 提供 关联 知识 可 视 化 和 检索 有 效 手 段 。 基 于 命名 实体 识别 和 知 
- 识 图 谱 技 术 ， 对 典籍 中 蕴含 的 植物 知识 进行 挖掘 、 组 织 和 呈现 ， 对 于 发 扬中 华 优秀 传统 文 
化 ， 促 进 古籍 中 蕴含 知识 的 创造 性 转化 和 创新 性 发 展 具 有 重要 意义 。 

本 研究 选取 25 部 先秦 典籍 为 研究 对 象 ， 详 尽 标注 其 中 的 植物 命名 实体 ， 并 基于 
CRF、Bi-LSTM-CRF、 和 多 种 深度 预 训练 语言 模型 进行 对 比 实验 探索 构建 有 效 的 古 汉语 村 
物 命名 实体 识别 模型 ， 并 使 用 最 优 模 型 应 用 于 对 《山海 经 》 中 植物 实体 的 识别 ， 实 现 对 植 
物 实体 的 补充 。 将 标注 和 识别 出 的 植物 实体 与 来 自 《 植 物 古 汉 名 图 考 》 等 外 部 资源 中 植物 
知识 进行 关联 ， 并 构建 知识 图 谱 ， 实 现 对 先秦 典籍 中 植物 知识 的 整理 和 可 视 化 。 


> 


*” 本 文系 国家 社 科 基金 重 
21&ZD331) 和 国家 自 科 基金 
72004095) 的 研究 成 果 之 一 。 
作者 简介 : 吴 梦 成 ， 博 士 研究 生 ， 林 立 涛 ， 硕 士 研究 生 ; FH, WOE: 王 东 波 ， 博 士 生 导师 ， 教 授 ; 
刘 浏 ， 人 硕士 生 导 师 ， 副 教授 ; 通信 作者 ，Email: db.wang@njau.edu.cn. 
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相关 研究 
植物 知识 挖掘 


基于 古 汉 语 典 籍 文本 的 植物 知识 挖掘 ， 主 要 集中 于 从 中 医药 学 视角 对 植物 的 药 用 价值 
进行 研究 。 如 邹 俐 马 通 过 主流 本 草 和 本 草 方剂 丛书 对 山 豆 根 的 有 关 信 息 进行 考证 ， 发 现 古 
籍 中 记载 的 山 豆 根 无 毒 与 现代 研究 结果 不 同 ， 认 为 山 豆 根 具 有 易 混 消 的 特点 。 曲 保全 多 通 
过 整理 中 华 医 典 数据 库 中 仿生 发 、 马 发 等 方剂 的 记录 来 研究 中 医 典籍 中 外 用 美发 方剂 的 用 
药 规 律 。 襄 代 昌 外 以 中 华 医 典 和 本 草 古籍 为 基础 ， 对 乌 药 的 名 称 、 形 态 、 产 地 等 进行 本 草 
考证 ， 指 出 乌 药 在 品质 、 采 收 、 炮 制 、 功 效 等 方面 仍 存在 部 分 认 知 差异 。 

此 外 ， 部 分 学 者 也 从 文学 视角 对 植物 命名 及 其 意象 进行 研究 。 辟 如， 于 娜 娜 等 外 对 
《诗经 》 中 的 水 生 植物 和 湿 生 植物 意象 进行 剖析 ， 在 挖掘 其 实用 价值 的 同时 还 探析 了 其 内 
在 的 情感 文化 价值 。 谭 宏 婉 巴 全 面 系 统 的 研究 了 古 汉 语 植物 的 命名 ， 总 结 归纳 了 植物 命名 
的 特点 和 规律 。 王 逢 外 以 《 仪 礼 》 中 的 名 物 词 为 研究 对 象 ， 对 其 中 的 八 个 单 音 节 名 物 词 进 
行 源 义 考 求 ， 并 区 分 了 其 中 所 包含 植物 的 物 类 类 别 。 王 凌云 5 采用 “文本 细 读 ”的 方法 ， 
以 “植物 意象 ”所 包含 的 四 层 意 强 为 线索 对 当代 新 诗作 品 中 的 植物 进行 分 析 和 研究 ， 并 阅 
释 了 植物 意象 的 意义 生成 方式 。 马 开颜 等 中 以 典型 文学 作品 中 的 植物 词 条 为 研究 对 象 ， 通 
过 主题 模型 探索 植物 、 词 汇 与 主题 的 相关 性 ， 挖 掘 植物 意象 在 文学 作品 中 与 在 特定 表达 之 
间 的 对 应 关系 。 

综合 来 看 ， 研 究 者 多 以 单一 古籍 为 研究 对 象 ， 研 究 语 料 整 体 规模 不 大 ， 研 究 方法 自动 
化 程度 低 、 结 果 展 示 不 够 直观 。 


命名 实体 识别 


命名 实体 识别 作为 自然 语言 处 理 的 基础 性 研究 ， 历 经 了 从 基于 规则 的 方法 到 统计 机 器 
学 习 方 法 再 到 基于 注意 力 机 制 、 图 神经 网 络 中 等 深度 学 习 方 法 的 演变 。 随 着 计算 机 技术 的 
发 展 ， 命 名 实体 识别 的 技术 也 在 不 断 更 新 、 优 化 ， 应 用 前 景 也 越发 广泛 ， 己 成 为 数字 人 文 
研究 的 重要 技术 手段 之 一 。 

对 汉语 古籍 文本 进行 命名 实体 识别 的 研究 已 取得 丰硕 成 果 ， 基 于 机 器 学 习 与 深度 学 习 
的 方法 是 当前 的 主流 方法 ， 其 免 去 特征 工程 的 同时 亦 能 取得 优良 的 识别 效果 。 相 关 研 究 如 
李娜 等 此 将 数字 化 的 典籍 《方志 物产 》 作 为 语 料 ， 对 语 料 标注 后 ， 使 用 CRE 对 语 料 中 的 各 
种 名 称 包括 人 名 、 地 名 、 别 名 、 引 用 名 等 多 类 型 命名 实体 实现 有 效 识 别 。 徐 晨 飞 等 器 以 
《方志 物产 》 云 南 卷 为 语 料 ， 完 成 对 语 料 中 人 物 、 产 地 、 引 书 、 物 产 别 名 等 实体 的 识别 ， 
= 发 现 Bi-LSTM-CRF 模型 对 引 书 实 体 的 识别 能 力 更 优 ，BERT 模型 对 人 物 实体 识别 效果 最 优 。 
ERRE CB) WEEL gt ALBERT-BiLSTM-CRF 模型 完成 对 其 中 疾病 、 处 方 、 
药物 、 症 候 、 症 状 等 命名 实体 识别 的 任务 ， 发 现 此 模型 相 比 其 他 模型 效果 更 佳 。 此 外 ， 部 
分 学 者 在 神经 网 络 结构 上 进行 了 创新 ， 如 Y.Wangr"1 提 出 了 一 个 多 态 图 注意 网 络 
(PGAT) ， 则 在 从 多 个 维度 捕获 字符 与 匹配 词 之 间 的 动态 相关 性 ， 以 增强 字符 表示 。 

综合 来 看 CRF、Bi-LSTM-CRF、BERT 等 是 现 阶段 实现 命名 实体 识别 的 常用 模 
型 ， 研 究 对 象 包括 方志 物产 文本 、 中 医药 典籍 文本 等 。 男 一 方面 ， 相 关 研 究 均 采用 面向 
汉语 文本 处 理 的 通用 模型 ， 而 古 汉 语 语法 、 词 法 、 句 法 、 体 裁 、 语 体 风格 与 现代 汉语 差异 
较 大 ， 因 此 上 述 研究 可 能 存在 模型 结构 与 文本 内 容 契 合 度 不 高 ， 识 别 结果 不 全 面 的 问题 。 

近年 来 ，SikuBERT08 等 面向 数字 人 文 研 究 的 古 汉语 预 训 练 语 言 模型 为 古文 智能 信息 处 
理 带 来 了 全 新 的 选择 。 在 此 背景 下 ， 本 研究 在 构建 先秦 古 汉语 植物 实体 语料库 的 基础 上 ， 
基于 面向 古 汉语 文本 智能 处 理 的 预 训 练 语 言 模 型 构建 有 效 的 古 汉 语 植物 实体 识别 模型 ， 并 
利用 所 构建 的 识别 模型 辅助 植物 知识 图 谱 的 构建 。 


知识 图 谱 


知识 图 谱 又 称 为 知识 领域 映射 地 图 ， 是 一 种 新 型 的 知识 表示 形式 ， 能 够 以 可 视 化 的 方 
式 组 织 和 呈现 某 个 领域 的 概念 、 概 念 属 性 及 不 同 概念 间 的 语义 关系 5。 该 技术 已 被 运用 到 


领域 知识 建 模 吕 、 自 动 问答 中 、 主 题 演变 分 析 外 等 众多 领域 ， 特 别 在 中 医药 古籍 知识 组 织 
方面 ， 知 识 图 谱 有 广泛 的 应 用 。 壁 如 ， 张 君 冬 轨 以 不 孕 症 为 例 构建 知识 本 体 呈 现 该 领域 内 
的 概念 关系 ， 并 采用 数据 挖掘 方法 完善 本 体 语 义 关 系 ， 实 现 了 不 孕 症 中 医 临床 试验 知识 的 
语义 映射 和 结构 化 表达 。 张 向 先 等 中 使 用 自 顶 向 下 方法 构建 了 敦 烛 吐 鲁 盔 医药 文献 本 体 模 
型 ， 并 在 此 基础 上 构建 知识 图 谱 ， 实 现 了 敦煌 吐鲁番 医药 文献 的 知识 组 织 与 可 视 化 。 翟 东 
升 等 器 通 过 深度 学 习 信息 联合 抽取 模型 对 中 医药 专利 文本 中 的 实体 及 关系 进行 抽取 ， 基 于 
中 医药 知识 图 谱 本 体 结构 完成 了 知识 图 谱 的 构建 。 羊 艳 玲 等 只 阐述 了 中 医 医 案 知 识 图 谱 构 
建 方 法 ， 并 以 医 案 中 的 疾病 、 症 状 、 药 物 等 实体 为 例 进 行 命名 实体 识别 和 抽取 ， 构 建 知识 
图 谱 ， 探 索 其 中 关系 。 李 贺 等 eI 以 简 护 医药 文献 为 研究 对 象 ， 构 建 了 简 息 医药 书目 本 体 和 
内 容 本 体 ， 并 以 此 为 基础 实现 了 简 息 医药 文献 知识 图 谱 可 视 化 呈现 。 
目前 ， 知 识 图 谱 也 成 为 了 数字 人 文 研究 的 重要 方法 ， 如 崔 竞 烽 等 中 以 古典 诗词 为 研究 
对 象 ， 使 用 深度 学 习 模型 挖掘 诗词 中 的 菊花 相关 知识 以 及 菊花 诗词 文本 关联 。 张 云 中 等 多 
梳理 了 历史 人 物 数字 资源 ， 构 建 红色 历史 人 物 知 识 图 谱 ， 搭 建 红色 历史 人 物 问答 平台 。 刘 
欢 等 BI 以 《 左 转 》 为 研究 对 象 ， 通 过 SVM 和 BERT-LSTM-CRF 模型 实现 问 句 意图 识别 和 
问 句 实体 识别 ， 构 建 领域 知识 图 谱 并 基于 Flask 框架 完成 问答 系统 平台 的 搭建 。 范 青 等 el 构 
建 了 非 物质 文化 遗产 知识 图 谱 ， 形 成 关联 数据 ， 呈 现 非 物质 文化 遗产 隐形 关系 。 钟 远 薪 等 
B23 针对 艺术 图 像 领域 ， 构 建 艺术 图 像 知 识 图 谱 ， 对 比 传 统 数据 库 ， 论 证 了 知识 图 谱 在 知识 
组 织 应 用 上 的 先进 性 。 

从 上 述 研究 可 以 看 出 ， 知 识 图 谱 在 知识 组 织 和 知识 可 视 化 以 及 关联 分 析 方 面具 有 优势 。 
与 此 同时 ， 科 技 发 展 带 来 领域 知识 不 断 增加 ， 这 使 得 通常 的 领域 知识 图 谱 需 要 不 断 更 新 旧 
知识 和 补充 新 知识 ， 构 建 和 维护 成 本 高 。 然 而 ， 面 向 数字 人 文 研究 的 知识 图 谱 构 建 则 是 基 
于 有 限 的 历史 典籍 ， 这 便 赋予 其 极 高 的 稳定 性 ， 减 少 了 后 期 维护 的 工作 。 稳 定 的 领域 知识 
图 谱 能 够 给 知识 检索 、 自 动 问答 等 知识 图 谱 应 用 提供 重要 保障 。 因 此 本 研究 选择 知识 图 谱 
对 典籍 中 植物 及 其 关联 知识 进行 组 织 和 存储 。 


数据 集 构建 及 植物 词 分 布 特征 统计 
数据 来 源 


本 研究 选取 南京 师范 大 学 构建 的 先秦 典籍 语料库 作为 研究 对 象 。 该 语料库 含 25 部 先 
秦 典 籍 ， 按 照 四 部 分 类 法 可 将 其 分 为 “经 、 史 、 子 、 集 ”四 个 大 类 的 ， 有 具体 如 表 1 所 示 。 
该 语 料 内 容 丰 富 ， 涵 盖 古 代 军 事 、 文 化 等 多 个 方面 ， 比 较 全 面 地 揭示 了 先秦 时 期 古代 人 民 
的 生活 状态 和 社会 风貌 ， 同 时 也 记述 了 大 量 植物 ， 有 具备 较 高 研究 价值 。 


表 1 25 部 先秦 部 典籍 及 对 应 四 部 分 类 


籍 种 典籍 名 称 
类 
经 部 CFA) APY EZL UILI GL) (RRE) 
(AFIR) Aa) (ete) W) (#4) (ET) 
史 部 《国语 》 
子 部 《孙子 兵法 》 《 吴 子 》《 管 子 》《 老 子 》《 苟 子 》《 庄 子 》 
《韩非子 》《 墨 子 》 《 吕 氏 春秋 》《 商 君 书 》《 受 子 春秋 》 
集 部 (HERE) 


植物 词 标注 
植物 命名 实体 即 指 代 植 物 的 词 ， 下 文 简称 植物 词 。 在 25 部 先秦 典籍 中 ， 存 在 一 些 指 代 
较为 宽泛 的 植物 词 ， 无 法 较为 明确 地 对 应 到 具体 的 植物 品种 ， 如 “ 树 ”“ 藻 ”“ 水 草 ” 


“ 殖 草 ”， 此 类 植物 词 不 纳入 后 续 的 标注 与 统计 范围 。 标 往 工 作 采 用 人 工 标注 辅 以 词典 匹 
配 的 方式 完成 包括 词典 匹配 预 标注 、 人 工 校对 与 补充 标注 三 个 步骤 。 

首先 ， 本 研究 通过 以 下 两 个 数据 源 构建 古 汉语 植物 词 词典 。 一 是 《 尔 雅 》 中 的 《 释 
草 》 和 《 释 木 》 章 节 ，《 尔 雅 》 成 书 时 间 与 先秦 典籍 相近 ， 其 中 《 释 草 》 和 《 释 木 》 记 述 
了 大 量 植 物 相关 的 内 容 。 二 是 《植物 古 汉 名 图 考 》， 该 书 是 高 明 乾 历时 30 余年 对 植物 古 汉 
名 进行 考证 的 重要 成 果 ， 其 中 包含 植物 古 汉 名 4394 个 ， 记 载 的 古 植物 种 类 丰富 。 本 研究 邀 
请 三 名 具有 植物 学 研究 背景 的 研究 生 通 过 人 工 判读 的 方式 识别 和 整理 上 述 数据 源 中 的 植物 
词 ， 形 成 植物 词 集合 。 随 后 对 植物 词 集合 中 的 所 有 植物 词 归 并 去 重 ， 形 成 最 终 用 于 词典 匹 
配 标注 的 古 汉语 植物 词典 。 
接着 ， 利 用 自 编 Python 程序 ， 采 用 最 大 逆 千 匹配 策略 ， 对 语 料 中 词性 为 名 词 “m 的 内 
容 进 行 基于 古 汉语 植物 词典 的 预 标注 。 

最 后 ， 对 词典 匹配 标注 的 结果 进行 人 工 校 对 和 补充 标注 ， 以 提高 标注 的 准确 性 与 全 
性 。 本 文 作者 和 上 述 三 名 具有 植物 学 背景 的 研究 生 分 组 (每 组 3 AO. 完成 本 部 分 工作 。 每 
组 人 员 先 分 别 对 预 标注 结果 进行 校对 与 补充 ， 再 分 别 对 另 一 组 的 校对 和 补充 结果 进行 检查 
和 确认 。 所 有 人 员 参 照 古 诗 文 网 (https://www.gushiwen.cn/) 提 供 的 古文 与 白话 译文 平行 语 料 
库 完成 本 部 分 工作 ， 以 提高 对 典籍 内 容 理解 的 准确 性 。 

遵循 上 述 步骤 ， 完 成 标注 后 一 条 语 料 样 例如 “【 和 奢 】/h、/w.【 梁 】 in, w OUR) 
gd 二 /m fT/n". 


植物 词 分 布 特征 统计 


在 25 部 先秦 典籍 中 ， 共 发 现 4576 个 植物 词 ， 不 重复 植物 词 个 数 为 364 个 。 在 标注 过 
程 中 ， 并 未 发 现 《 孝 经 》 中 出 现 植 物 词 。 就 植物 词 总 数 而 言 ， 总 数 最 多 的 是 《 仪 礼 》， 包 
含 植物 词 635 个 ， 其 次 是 《管子 》《 诗 经 》 和 《 礼 记 》 分 别 是 538 个 、472 个 、457 个 ; 就 
不 重复 植物 词 数量 而 言 ， 数 量 最 多 的 是 《诗经 》， 含 不 重复 植物 词 134 个 ，《 管 子 》 和 
《 礼 记 》 次 之 ， 分 别 为 111 个 和 95 个 。 在 植物 词 的 全 文 总 次 数 占 比方 面 ， 占 比 最 高 的 是 
《诗经 》， 约 占 1.36%， 也 是 唯 部 植物 词 占 比 超过 百 分 之 一 的 典籍 。 植 物 词 在 不 同 } 
籍 中 的 总 数 、 不 重复 词 个 数 、 及 占 全 文字 数 比 值 如 表 2 所 示 。 


表 2 先秦 典籍 中 植物 词 数量 统计 
典籍 植物 词 。 ”不 重复 植物 词 数 全文 占 比 。 典籍 植物 词 。 ”不 重复 植物 词 数 LL 
数 


—- 


数 
BAL 635 45 0.62% 管子 538 111 0.31% 
c 诗经 472 134 1.36% 礼 记 457 95 0.34% 
s= 周 礼 302 46 0.40% 吕 氏 春 2⁄4 84 0.22% 
O 韩非子 “246 51 0.19% 楚 辞 232 90 0.77% 
左 传 206 71 0.10 黑子 205 54 0.23% 
BPR 184 37 0.28% 国语 150 40 0.17% 
秋 
荀子 144 52 0.14% 庄子 141 59 0.15% 
尚书 78 32 0.22% 孟子 76 20 0.16% 
周易 56 y 0.20% HEB 46 11 0.18% 
RPE 44 9 0.1% Rte am 13 0.07% 
论语 22 4 0.11% 孙子 兵 20 7 0.16% 
法 
BF 11 4 0.14 PES 5 3 0.07% 
从 表 2 可 见 ， 诗 赋 类 典籍 包含 的 植物 词 数 量 占 比较 高 ， 而 经 史 类 占 比 则 相对 较 低 。 可 
以 推断 植物 在 中 国 古 代 人 民生 活 当 中 用 于 写 诗作 赋 是 一 种 较为 常见 的 现象 。《 诗 经 》 在 植 


物 词 总 数 排名 、 不 重复 植物 词 个 数 排名 以 及 植物 词 全 文 占 比方 面 都 排名 靠 前 ， 这 一 结果 其 
实 并 非 偶 然 。《 诗 经 》 中 的 诗歌 多 用 “ 赋 比 兴 ” 的 写作 手法 ，“ 比 ”是 以 彼 物 比 此 物 ， 
“ 兴 ” 则 是 先 言 他 物 引 所 号 之 词 ，《 诗 经 》 中 “ 彼 物 ” 和 “他 物 ” 和 常常 是 植物 词 ， 如 《 卫 
PALA) “PWR” FARRAR AFAR (GEBOD “HERR, ABR 
88. " WAE “GE” M B” POR RA OMe Zi. Ac, CF2) PANE 
物 词 在 种 数 和 频数 方面 都 位 居 前 列 。 
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先秦 典籍 植物 知识 图 谱 构建 


植物 知识 图 谱 的 构建 技术 路 线 如 图 1 所 示 ， 具 体 为 : 


建 和 应 用 


。 通 过 对 比分 书 


(1) 古 汉语 植物 实体 识别 模型 构 
fF 法 将 植物 语 料 输入 机 器 学 习 模 型 和 多 种 深度 学 习 模 型 中 ， 构 建 面 


向 典籍 的 植物 命名 实体 自动 识别 模型 ， 比 较 最 终 各 模型 的 植物 识别 效果 ， 并 确定 最 优 模型 


(2) 以 《山海 经 》 文 本 为 应 用 对 象 ， 使 用 最 优 模型 去 识别 
别 结果 ， 为 知识 图 谱 扩充 数据 源 。 G 植物 知识 图 谱 构 建 。 


中 的 植物 ， 并 人 工 核验 植物 识 


以 25 部 先秦 典籍 的 文本 内 容 


和 从 互联 网 百科 知识 库 爬 取 的 植物 知识 和 从 《山海 经 》 中 抽取 的 相关 植物 知识 为 数据 源 ， 


知识 表示 


预 训练 语言 模型 


L 
i i 海 经 植物 词 
i | Bi-LsTM-CRF | sika 


最 优 古 籍 命名 实体 识别 模型 


《山海 经 》 
测试 语 料 


25 部 先秦 典籍 
繁体 语 料 


先秦 典籍 植物 词 i 


B BERT-base -chinese hi 
i GuwenBERT f 
SikuBERT 
SikuRoBERTa 


] Chinese-RoBERTa- | i 
i wwm-ext 


植物 知识 图 庶 数 据 源 

植物 知识 图 谱 构建 

BÜDASREDETRS 
可 视 化 


图 1 先秦 典籍 植物 知识 图 谱 构建 技术 路 线 


知识 图 谱 通过 图 的 形式 呈现 实体 和 实体 关系 ， 通 过 三 元 组 的 方式 组 织 实体 数据 和 实体 
关系 数据 。 具 体 而 言 ， 在 知识 图 谱 中 “节点 一 边 一 节点 ”这 样 的 关系 可 以 看 作 是 “主语 一 
谓语 一 宾语 ”的 关系 ， 视 为 知识 图 谱 中 的 一 条 记录 。 具 体 古 汉语 植物 词 及 其 关联 知识 的 表 
示 如 图 2 所 示 。 


地 点 


竞争 、 寄 生 


图 2 先秦 典籍 植物 知识 表示 模型 


人 物 


整个 知识 图 谱 皆 由 此 类 三 元 组 构成 ， 对 于 同一 主语 通常 包含 多 种 关系 ， 随 着 知识 不 断 


累积 ， 知 识 图 谱 的 实体 关系 网 络 也 会 不 断 扩大 ， 最 终 知 识 


图 3 展示 了 一 个 实例 ，“ 植 物 唐 具有 功效 治疗 肾虚 腰痛 ”， 植 物 唐 是 主语 ， 具 有 功效 


语 ， 治 疗 肾虚 腰痛 则 为 宾语 。 


图 谱 将 会 包含 海量 数据 和 知识 。 
是 亩 


3 先秦 植物 知识 表示 实例 


知识 抽取 


知识 抽取 的 目的 是 实现 对 典籍 中 植物 命名 实体 的 识别 和 抽取 。 本 研究 采用 序列 标注 模 
型 完成 知识 抽取 ， 采 用 的 具体 模型 有 CRF、Bi-LSTM-CRF 和 多 种 预 训练 语言 模型 ， 下 面 简 
要 介绍 各 类 模型 。 
(1) CRF 

条 件 随机 场 〈(Conditional Random Field, CRF) 是 一 种 判别 式 无 向 图 模型 。 当 其 应 用 
到 标注 问题 中 ， 就 成 为 根据 输入 序列 对 输出 序列 进行 预测 的 判别 模型 。 其 学 习 方 式 是 在 给 
定 训练 数据 集 的 基础 上 通过 极 大 似 然 估计 获得 条 件 概 率 模 型 ， 若 进行 预测 ， 则 是 在 给 定 输 
入 序列 的 基础 上 寻求 条 件 概率 最 大 的 输出 序列 。 
(2) Bi-LSTM-CRF 

Bi-LSTM-CRF 由 Bi-LSTM 与 CRF 构成 。CRF 层 可 以 通过 学 习 数 据 集中 标签 之 间 的 转 
移 概率 从 而 修正 Bi-LSTM 层 的 输出 ， 提 高 模型 预测 准确 率 。 

(3) 深度 预 训 练 语言 模型 

深度 预 训 练 语言 模型 是 一 种 基于 大 规模 无 监督 语 料 ， 通 过 自 监 督 的 方式 训练 而 得 到 的 
含有 语 料 中 词法 、 句 法 、 上 下 文 信息 的 语义 表示 模型 。 采 用 领域 化 的 预 训练 语言 模型 可 以 
进一步 提高 其 在 对 应 语 料 上 的 下 游 任务 性 能 ， 因 此 本 研究 特别 选择 面向 数字 人 文 的 古文 预 
训练 模型 SikuBERT. SikuRoBERTa™ £47 329%. SikuBERT 和 SikuRoBERTa 是 由 南京 农业 
大 学 基于 四 库 全 书 语 料 训练 而 成 ， 在 预 训练 过 程 中 ， 二 者 的 词 表 均 使 用 不 含 标点 符号 的 繁 
体 中 文 ， 且 句子 切 分 是 以 字 为 粒度 。 其 中 SikuBERT 是 基于 BERT-base-Chinese 在 《四 库 全 
六 》 语 料 继 续 训 练 得 到 ， 在 预 训练 过 程 中 移 除 了 对 性 能 提升 帮助 不 明显 的 下 一 句 预 测 任 务 


Li 


c SikuRoBERTa 是 基于 中 文 版 RoBERTa-Chinese CA 4i Syst) 在 《四 库 全 书 》 语 料 
Ə 上 继续 训练 得 到 。 用 于 继续 训练 的 《四 库 全 书 》 语 料 为 文 渊 阁 版 的 繁体 字 《 四 库 全 书 》 正 


文 文本 〈 不 含 注 释 ) ， 训 练 数据 总 字数 约 5.3 亿 字 左右 。 

为 充分 比较 并 筛选 出 最 优 模型 ， 本 研究 还 选择 了 guwenBERT(https://github.com/Ethan- 
yt/guwenbert) ~ BERT-base-Chinese63 和 Chinese-roberta-wwm-ext® 进行 对 比 实 验 。 
guwenBERT 是 由 北京 理工 大 学 基于 RoBERTa-Chinese (24 48 7) 在 殉 知 阁 古 代 
文献 语 料 上 继续 训练 得 到 ， 其 中 列 知 阁 古 代 文 献 语 料 包含 15694 本 古籍 ， 总 字数 约 17 亿 字 。 
BERT-base-Chinese 是 由 谷歌 基于 中 文 维基 百科 数据 训练 而 成 ， 面 对 中 文 自然 语言 处 理 任务 ， 
具有 较 好 的 通用 性 。Chinese-roberta-wwm-ext 是 哈工大 讯 飞 联合 实验 室 采 用 全 词 掩 码 技术 
基于 中 文通 用 语 料 开 发 的 中 文 预 训练 语言 模型 。guwenBERT 是 由 北京 理工 大 学 基于 
RoBERTa-Chinese《〈 结 合 全 词 遮 罩 方 式 ) 在 列 知 阁 十 代 文 献 语 料 上 继续 训练 得 到 ， 其 中 殖 
知 疼 古代 文献 语 料 包含 15694 本 古籍 ， 总 字数 约 17 亿 字 。 


语 料 预 处 理 


在 构建 植物 命名 实体 自动 识别 模型 前 ， 需 要 完成 对 语 料 的 预 处 理 。 通 过 对 语 料 中 所 有 
植物 词 词 长 的 统计 ， 最 终 确 定 采用 5 词 位 标记 集 作为 预 处 理 过 程 的 标注 规范 。5 词 位 标记 


集 可 表示 为 R={B-P, E-P, M-P, S-P, 0}， 其 中 “B-P” 表 示 植 物 词 的 起 始 字符 ，“M-P” 表 示 


植物 词 的 中 间 字 符 ，“E-P”* 表 示 植 物 词 的 结束 字符 ， 
植物 词组 成 部 分 以 外 的 所 有 其 他 字符 。 经 预 处 理 后 的 语 料 样 


表 3 古 汉语 植物 词语 料 预 处 理 结果 样 例 
标记 


Y 字符 ”标记 序号 
1 HB o 6 
2 有 Oo 7 
3 长 BP 8 
4 松 EP 9 
5 x 0 10 


模型 构建 


S-P 
S-P 
S-P 
B-P 
E-P 


“S-P” 表 示 单 字 植 物 词 ，“0O” 表 示 除 
例如 表 3。 


本 实验 所 需 的 计算 机 配置 如 下 : 操作 系统 为 Centos 3.10.0, CPU 为 4 颗 Intel(R) 


Xeon(R) CPU E5-2650 v4 @ 2.20GHz， 内 存 大 小 256G; GPU 为 6 块 NVIDIA Tesla P40， 显 
存 大 小 24G。CRF Fil Bi-LSTM-CRF 采用 默认 训练 参数 。 


由 于 SikuBERT、SikuRoBERTa 和 


BERT-base-Chinese 等 深度 预 训练 模型 神经 网 络 架 构 相 同 ， 故 实验 时 设置 相同 训练 参数 ， 如 


K 4 所 示 。 


表 4 深度 预 训练 模型 的 训练 参数 


train_batch_size 次 输入 模型 的 句子 数 
max_seq_length 允许 输入 的 最 大 句子 长 度 


epoches 训练 轮 次 
leraning rate 学 习 率 
| proportio — 预 热 学 习 率 


2E-5 
0.4 


未 研究 选取 精确 订 CO ORME GO ADHADEJUED GD 5 对 模型 性 能 ; 行 评测 。 


表 5 展示 了 各 模型 的 测试 结果 ， 从 中 可 以 看 出 SikuBERT 与 SikuRoBERTa 的 性 外 
其 中 SikuRoBERTa 模型 表现 最 优 ，F1 值 达 85.44%。 


表 5 各 植物 词 自动 识别 模型 评测 数值 


模型 准确 率 (P) 
号 

1 CRF 86.31% 
2 Bi-LSTM-CRF 82.38% 
3 BERT-base-Chinese 80.40% 
4 GuwenBERT 67.19% 
5 SikuBERT 79.62% 
6 SikuRoBERTa 81.54% 


模型 应 用 


《山海 经 》 同 样 成 书 于 先秦 时 期 ， 其 记载 了 关于 古代 地 理 、 历 史 、 动 物 、 植 物 、 


等 方面 的 诸多 内 容 。 本 研究 将 上 述 最 优 模型 应 用 于 《山海 经 》 文 本 ， 以 实现 对 
词典 的 补充 。 最 优 模型 对 《山海 经 》 中 一 句 话 的 识别 结果 为 “ 
如 【 变 裁 】， 食 之 已 殖 。”， 其 中 “赤城 ”一 词 并 非 训 练 语 料 中 的 标注 实体 ， 该 模型 全 


召回 率 (R) 


68.87% 


58.53% 


72.32% 


53.71% 


83.71% 


89.73% 


调和 平均 数 (F1) 


76.40% 


67.98% 


76.15% 


59.64% 


81.61% 


85.44% 
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其 准确 识别 出 来 ， 说 明 本 研究 构建 的 模型 具备 较 好 的 实用 效果 。 最 终 总 计 从 《山海 经 》 文 


本 中 共识 别 出 中 植物 词 366 1S, 121 种 ， 其 中 既 包 含 在 训练 语 料 中 已 标注 的 植物 词 ， 也 新 
WA AS ei] on “KR” “RE” SE. 


知识 融合 


通过 知识 抽取 虽然 获得 实体 、 关 系 、 属 性 等 知识 ， 但 是 知识 来 源 不 同 导 致 抽取 到 的 数 
据 存 在 很 多 噪声 数据 和 重复 数据 ， 对 此 类 数据 的 清洗 和 整合 有 利于 先秦 典籍 植物 知识 图 谱 
的 完善 和 优化 。 知 识 融 合 的 过 程 主要 分 为 两 步 ， 分 别 为 实体 链接 和 知识 合并 。 
实体 链接 主要 是 将 数据 采集 过 程 中 来 自 不 同 数据 源 的 重复 知识 进行 融合 ， 即 让 含义 相 
同 的 实体 合并 为 一 个 实体 。 本 研究 由 于 数据 源 有 限 ， 均 采用 人 工 判别 的 方式 来 判断 实体 间 
是 否 具 有 相同 含义 。 如 网 站 “植物 通 ”(https:Wwww.zhiwutong.com/) 中 的 “国内 分 布 ” 和 网 
站 “植物 智 ”(https://www.iplant.cn/) 中 的 “分 布地 ”都 是 对 植物 在 中 国境 内 地 点 的 表述 ， 
属于 相同 实体 ， 应 该 将 二 者 进行 合并 。 
知识 合并 主要 是 在 实体 链接 的 基础 上 ， 将 同一 植物 实体 在 不 同 来 源 网 站 上 属性 进行 融 
， 如 “ 稳 ” 在 “植物 通 ” 记 载 了 “植物 智 ” 中 未 出 现 的 别名 相关 知识 ，“ 植 物 智 ” 中 又 
记载 了 “植物 通 ” 中 未 出 现 的 功用 价值、 生态 习性 等 知识 ， 将 不 同 来 源 但 是 为 同一 实体 的 
属性 内 容 进行 人 工 选择 与 合并 可 以 全 面 吸收 植物 相关 知识 ， 让 先秦 典籍 植物 知识 图 谱 内 容 
更 加 丰富 全 面 。 
本 研究 采用 两 种 方式 实现 植物 知识 抽取 : 一 方面 先 通过 人 工 标注 先秦 典籍 中 的 植物 词 ， 
然后 利用 基于 标注 数据 训练 得 到 的 SikuRoBERTa 模型 自动 识别 获得 25 部 先秦 典籍 和 “《 山 
海 经 》 中 的 植物 词 并 进行 人 工 校对 ， 男 一 方面 通过 Python 朴 取 “植物 通 ” 和 “植物 智 ” 两 
个 网 站 的 植物 关联 数据 ， 经 过 数据 加 工 和 整合 获得 最 终 用 于 典籍 植物 知识 图 谱 构 建 的 结构 
化 数据 。 
在 数据 呈现 方式 上 ，“ 植 物 通 ”和 “植物 智 ” 多 以 半 结 构 化 形式 进行 存储 ; 在 数据 内 
容 上 ，“ 植 物 通 ” 主 要 存储 植物 的 科 名 、 属 名 、 植 物 志 、 别 名 、 来 源 、 性 味 、 功 效 、 国 内 
分 布 、 国 外 分 布 、 海 拔高 度 、 习 性 、 药 用 部 位 、 药 用 功能 、 药 用 主治 、 考 证 、 化 学 成 分 等 
属性 和 关系 。“ 植 物 智 ”主要 存储 植物 的 学 名 、 俗 名 、 异 名 、 4rfghü CIC) 、 形 态 特征 
生态 习性 、 图 片 、 标 本 、 标 本 分 布 、 植 物 志 、 保 护 等 级 、 保 护 价值 、 保 护 措施 、 栽 培 要 点 
等 属性 和 关系 。 将 上 述 数据 内 容 上 的 知识 进行 对 比 整合 有 利于 保证 先秦 典籍 知识 图 谱 中 关 
系 的 全 面 性 和 属性 的 详尽 性 。 
p— 知识 存储 
9 本 研究 选取 图 数据 库 Neo4j 来 构建 先秦 典籍 植物 知识 图 谱 。Neo4j 一 方面 支持 使 用 
Cypher 查询 语言 实现 对 实体 和 实体 间 关 系 的 语义 查询 ， 另 一 方面 在 关联 度 较 高 的 数据 上 拥 
有 更 快 的 查询 速度 ， 且 提供 了 可 视 化 的 查询 功能 
结合 构建 的 先秦 典籍 植物 命 名 实体 识别 模型 识别 出 的 植物 和 从 外 部 数据 库 疏 取 的 多 维 
植物 知识 ， 依 照 知识 表示 模型 的 数据 结构 ， 将 人 工 标 注 先秦 典籍 中 的 植物 词 、 利 用 模型 从 
《山海 经 》 中 识别 出 的 植物 词 和 “植物 通 ” 和 “植物 智 ” 等 外 部 知识 库 中 的 获取 的 植物 相 
关 知 识 进行 整合 ， 并 将 获取 的 全 部 植物 知识 存储 至 Neo4j 图 数据 库 中 ， 从 而 实现 多 源 知识 
融合 ， 其 中 实体 关系 与 属性 类 具体 知识 内 容 如 表 6 所 示 ， 具 体 呈 现 如 图 4 所 示 。 


表 6 先秦 典籍 植物 知识 图 谱 实 体 及 实体 关系 


编号 ”实体 实体 关系 数量 (组 ) 
实体 关系 1 植物 典籍 KERE 90 
实体 关系 2 植物“ 地点。 分 布地 点 3745 
实体 关系 3 ”植物 功效 了 功效 804 
实体 关系 4 植物 科 属 ”生物 类 属 315 
实体 属性 1 ”植物 ”学 名 qug 239 
实体 属性 2 植物 ”中 文 名 ”具有 中 文 名 315 
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实体 属性 3 ”植物 “别名 具有 别名 5680 
实体 属性 4 ”植物 ”其 他 AAT gre 881 


Match (n: 实体 1) where n.name =“ 稻 ' return n 


总 O 
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8 2ee @ 
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图 4 基于 知识 图 谱 的 植物 关联 知识 存储 结果 样 例 
先秦 典籍 植物 知识 可 视 化 呈现 


植物 与 典籍 


在 图 数据 库 中 导入 所 有 典籍 名 称 实体 和 所 有 植物 实体 及 其 关系 后 ， 可 以 直观 观察 到 两 
个 或 者 多 个 典籍 共同 记载 的 植物 。 以 《诗经 》 和 《 楚 辞 》 为 例 ， 如 图 5 所 示 ， 从 该 图 中 可 
以 清晰 地 看 出 《诗经 》 和 《 楚 辞 》 中 记载 的 相同 植物 共 26 种 ， 其 中 包括 “ 桑 ”“ 葛 ” 
“ 艾 ” 等 植物 。 此 外 ， 特 定植 物 与 不 同 典籍 之 间 的 有 向 边 数 量 也 可 以 一 定 程度 上 反映 该 植 
物 在 先秦 时 期 的 重要 程度 。 如 植物 “ 栗 ” 频 频 出 现 于 《诗经 》《 楚 辞 》 等 先秦 典籍 中 ， 而 
“村 ”在 当时 作为 重要 的 粮 作物 之 一 确实 占据 重要 社会 地 位 。 同 时 ， 根 据 指向 典籍 的 有 同 
边 数 量 也 可 以 大 致 估计 出 该 典籍 所 记载 的 植物 丰富 程度 。 因 此 ， 上 典籍 与 植物 之 间 的 关联 关 
系 既 为 植物 研究 提供 了 一 个 可 视 化 的 知识 网 络 ， 又 为 文学 史 研究 提供 了 一 个 新 的 有 意义 的 
方向 。 


图 5 植物 及 来 源 典 籍 可 视 化 
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植物 与 属性 


在 图 数据 库 中 导入 所 有 典籍 植物 的 所 有 实体 关系 和 实体 属性 后 ， 生 成 的 知识 图 谱 如 图 
6 所 示 : 这 是 随机 抽取 典籍 中 的 一 种 植物 “ 稻 ”， 对 其 所 包含 的 知识 包括 植物 的 中 文 名 、 
学 名 、 别 称 、 植 物 形态 特征 中 的 生活 型 、 枝 、 根 、 茎 、 叶 、 果 、 花 、 物 候 期 、 生 境 、 海 拔 
国外 分 布 等 属性 知识 进行 可 视 化 。 可 以 看 出 ，“ 稳 ”有 “谷子 ”“ 不 ”“ 粳 ”“ 稳 谷 ”等 
别称 ， 是 一 年 生 植物 ， 叶 鞘 松 散 ， 无 毛 ， 为 主要 粮食 作物 之 一 。 此 类 属性 知识 的 呈现 和 组 
织 方式 拓宽 了 人 们 学 习 植物 知识 的 方法 ， 还 为 植物 研究 者 提供 基于 语义 的 植物 知识 查询 途 
径 ， 可 以 根据 植物 的 特定 属性 信息 来 限定 或 者 缩小 查找 范围 以 便 对 植物 进一步 研究 。 此 外 
除了 单个 植物 的 属性 知识 ， 先 秦 典 籍 植 物 知识 图 谱 还 可 以 用 于 探索 不 同 植物 的 属性 之 间 的 
关联 ， 比 如 可 以 直接 查询 具有 特定 属性 的 植物 群 进行 深入 的 比较 研究 ， 从 而 挖掘 出 更 具 价 
值 的 信息 。 


6 植物 属性 知识 可 视 化 
植物 与 功效 


在 先秦 时 期 ， 植 物 除了 作为 中 国 古 代 人 民 粮 食 作物 外 ， 甚 药 用 价值 也 不 可 忽视 。 如 成 
书 于 战国 至 秦汉 时 期 《皇帝 内 经 》， 以 及 之 后 的 《神农 本 草 经 》 两 部 医学 著作 记载 了 大 量 
的 将 植物 用 药 的 属性 。 例 如 在 《本 经 : 序 录 》 中 记载 的 “上 药 一 百 二 十 种 为 君 ， 主 养 命 以 应 
天 ， 无 毒 ， 久 服 不 伤 人 。” 反 映 了 人 参 、 甘 草 、 地 黄 、 黄 连 、 大 机 等 植物 的 药 用 价值 。 由 
此 可 见 ， 植 物 的 部 分 功效 在 先秦 时 期 就 已 经 被 发 现 并 利用 。 因 此 ， 本 研究 在 构建 先秦 典籍 
植物 知识 图 谱 过 程 中 分 离 出 植物 实体 和 功效 实体 ， 以 辅助 探究 不 同 植物 及 其 药 用 价值 的 关 
联 ， 部 分 功效 属性 可 视 化 如 图 7 所 示 。 
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7 植物 功效 知识 可 视 化 
图 7 不 仅 展示 了 植物 具有 哪些 功效 ， 还 对 具有 相同 功效 的 植物 进行 关联 ， 如 有 具有“ 理 
气 止 痛 ” 功 效 的 植物 有 “ 胡 ”“ 相 ”等 ，“ 戎 权 ”“ 槐 ”等 植物 均 与 “ 祛 风 湿 ” 相 关联 。 
特别 是 在 中 药 领 域 ， 这 种 展示 方式 使 不 同 植物 与 不 同 功 效 间 的 关系 更 加 清晰 易 懂 ， 不 仅 有 
利于 研究 者 发 据 具 有 相似 功效 的 植物 ， 同 时 也 有 利于 该 领域 研究 者 准确 查询 和 了 解 植物 和 
功效 之 间 的 复杂 关系 ， 以 便 更 好 地 研究 植物 的 特性 和 应 用 ， 从 而 为 中 药 研 究 提供 便利 。 
结语 


本 研究 对 25 部 先秦 典籍 中 的 植物 词 进 行 了 细致 地 标注 ， 构 建 了 先秦 典籍 植物 实体 语 料 
库 。 基 于 CRF. Bi-LSTM-CRF 和 多 种 深度 预 训练 语言 模型 ， 构 造 了 面向 典籍 的 上 古 汉语 植物 
实体 自动 识别 模型 ， 为 典籍 植物 知识 挖掘 提供 了 有 效 方法 。 将 从 典籍 中 识别 出 的 植物 实体 
和 “植物 通 ”“ 植 物 智 ” 等 外 部 百科 知识 库 进 行 关 联 整合 ， 构 建 了 先秦 典籍 植物 知识 图 谱 
并 对 知识 图 谱 进 行 可 视 化 展示 。 该 知识 图 谱 在 面向 植物 的 知识 发 现 上 具有 潜在 应 用 价值 ， 
并 且 可 为 植物 知识 检索 与 自动 问答 提供 数据 支撑 。 

本 研究 仍 存在 一 些 不 足 之 处 。 首 先 ， 上 古 汉语 植物 实体 自动 识别 模型 性 能 还 有 进一步 提 
高 的 空间 。 例 如 ，“ 迷 坑 ”、“ 妈 木 ”等 在 训练 语 料 中 出 现 频 数 较 低 的 植物 词 未 能 成 功 识 
别 。 其 次 ， 先 秦 典 籍 植物 知识 图 谱 实 体 、 关 系 、 属 性 等 知识 仍 有 待 进一步 扩充 。 在 知识 补 
全 阶段 ， 部 分 植物 关联 知识 如 濒危 类 别 、 保 护 级 别 、 经 济 价值 等 尚未 完整 融合 到 该 图 谱 中 
后 续 研究 将 考虑 增加 训练 语 料 的 规模 ， 并 探索 更 为 先进 实体 识别 方法 。 此 外 ， 在 扩充 和 优 
化 先秦 典籍 植物 知识 图 谱 的 同时 ， 还 将 考虑 探索 知识 图 谱 在 自动 问答 、 知 识 检索 方面 的 应 
用 。 
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Plant Knowledge Mining and Organization Construction in Pre-Qin Classics from the 
Perspective of Digital Humanities 


Wu Mengcheng ! Lin Litao ' Qi Yue’ Wang Dongbo ' Liu Liu' 
! College of Information Management, Nanjing Agricultural University, Nanjing 210095 


Abstract: [Purpose/significance] The knowledge mining of plants in pre-Qin classics and the 
construction of pre-Qin plant knowledge map are of great significance for understanding the 
society and living conditions of ancient Chinese people. [Method/process] This paper makes a 
detailed labeling and quantitative analysis of plant words in pre-Qin classics. Based on CRF and a 
variety of deep learning models, a plant named entity recognition model for pre-Qin classics was 
constructed, and the performance of each model was compared and analyzed to determine the 
optimal model. A knowledge map-oriented knowledge organization model of classics and plants 
was designed. [Result/conclusion] The plant entity recognition model based on the domain pre- 
trained language model SikuRoBERTa has the best performance, and the harmonic average 
reaches 85.44%, which provides an effective method for entity-based plant knowledge mining. 
Aggregation and visualization of plant knowledge in pre-Qin classics. 


Keywords: Digital Humanities; Pre-Qin Classics; Plant Named Entity; Deep Learning; 
Knowledge Graph 
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